Search CORE

1 research outputs found

Urban Transport Evaluation Using Knowledge Extracted from Social Media

Author: Francisco André Barreiros Murçós
Publication venue
Publication date: 13/10/2021
Field of study

Atualmente, as redes sociais constituem uma fonte de dados valiosa para vários setores de actividade. No sector da mobilidade, as redes sociais online permitem obter informação em tempo-real a um baixo custo, quando comparado com outros métodos de recolha de informação. Nesta dissertação definiu-se uma metodologia para extrair conhecimento de mensagens extraídas do Twitter para analisar a mobilidade urbana. Esta metodologia foi estruturada em três módulos principais: configuração do sistema, análise de dados e visualização. As mensagens usadas para a demonstração da metodologia proposta foram recolhidas ao longo de dois meses para três cidades distintas: Nova Iorque, Londres e Melbourne. A extração de textos das redes socias e a posterior análise são tarefas muito demoradas devido ao alto volume de dados produzido. Cada mensagem extraída do Twitter é, normalmente, curta, informal e com muita gíria ou erros gramaticais associados. Para tratar estas questões, recorrendo à ferramenta NLTK (Natural Language Toolkit), técnicas de NLP (Natural Language Processing) foram aplicadas para que o texto fosse limpo, adequado e compreendido pelo algoritmo. Para a classificação das mensagens relacionadas com transportes, utilizou-se o modelo BERT (Bidirectional Transformers for Language Understanding) embedding. Trata-se de um modelo não-supervisionado pré-treinado lançado em 2018. No intuito de perceber se um modelo simples pode ter uma boa performance, utilizou-se uma abordagem unigram. Três listas de palavras relacionadas com transportes foram usadas: (i) uma lista pequena de 10 palavras, (ii) uma lista média com 35 palavras, e (iii) uma lista grande com 344 palavras. Os resultados da aplicação deste modelo monstram que este apresenta uma performance elevada, com a precisão e exatidão a registar valores superiores a 0.80 e 0.90, respetivamente. As palavras mais populares são train, walk, street, car, station, street e avenue. Os resultados obtidos são consistentes para as três cidades. Para a avaliação da perceção da opinião pública, as mensagens relacionadas com tráfego foram classificadas quanto ao seu sentimento. Para avaliar a polaridade das mensagens (positivo, neutro ou negativo), utilizou-se a ferramenta VADER (Valence Aware Dictionary and sEntiment Reasone) sentiment. O VADER é uma ferramenta de fácil utilização e com boa compatibilidade com mensagens de redes sociais e textos informais. É baseada em campos lexicais e regras para calcular o valor composto do sentimento de um texto de acordo com as palavras usadas. A metodologia desenvolvida obteve bons resultados de performance na análise de sentimentos. O valor médio da precisão atingiu 0.77 e a exatidão atingiu 0.78. Foi feita uma análise a um evento específico que envolveu um acidente de carro em Nova Iorque no dia 18 de maio de 2017. A análise efetuada, em particular a este dia demonstra que a metodologia é capaz de identificar alterações espaciais e de fluxos de mobilidade indicando quais as potenciais causas da sua origem. O trabalho desenvolvido permitiu concluir que a metodologia proposta pode ser bastante útil para auxiliar gestores de tráfego, planeadores urbanos, investigadores e formuladores de políticas a obter informações sobre as opiniões públicas sobre mobilidade urbana.Public opinion is nowadays a valuable data source for many sectors. Regarding the transportation and mobility sector, it is possible to collect information on real-time with reduced costs compared to other methods of information extraction. In this dissertation, we defined a methodology to extract knowledge from messages collected from Twitter to analyse urban mobility. The methodology was structured according three main modules: system configuration, data analytics and visualization. The messages used for the demonstration of the proposed methodology were extracted during two months for three different cities: New York, London and Melbourne. The text extraction from social media and its analysis are very time-consuming tasks due to the volume of the messages produced. Each message extracted from Twitter is, normally, short, informal and with a lot of slang or misspellings. To deal with that matter, by using NLTK (Natural Language Toolkit) tool, NLP (Natural Language Processing) techniques were applied so the text could be cleared and understandable by the algorithm. For the classification of travel related messages, a BERT (Bidirectional Transformers for Language Understanding) embedding model was used. The model is pre-trained, unsupervised and was released in 2018. In order to understand if a simple model could have good performance, an unigram approach was used. Three lists of travel-related words were used: (i) a small list with 10 traveled-related words, (ii) a medium list with 35 traveled-related words and (iii) a big list with 344 traveled-related words. The results show a high model performance with precision and accuracy higher than 0.80 and 0.90, respectively. Popular words are train, walk, street, car, station, street and avenue. Consistent results were obtained for all the three cities assessed. To evaluate the public opinion, the messages related to transportation and mobility were classified according to its sentiment. Then, to evaluate the polarity of the messages (positive, neutral or negative), VADER (Valence Aware Dictionary and sEntiment Reasone) sentiment tool was used. VADER is an easy tool to use and has great compatibility with social media messages and informal texts. It is a lexicon and rule based tool that calculates the compound value of text emotion according to its words. The developed methodology attained good performance results for the sentiment analysis where the average value of precision scored 0.77 while recall, accuracy and F1-score attained around 0.78. A specific analysis was made regarding a car crash event on New York on May 18, 2017. This analysis demonstrates that the methodology is capable of recognizing spacial changes and mobility flows directing to the potential causes of its origin. The developed work allows the conclusion that the proposed methodology can be very helpful to transport engineers, urban planners, researchers and policymakers in getting insight into public opinions regarding urban mobility

Repositório Aberto da Universidade do Porto